Add multilingual MATH-500 (mmath500) task by dzautner · Pull Request #5 · LumiOpen/lighteval

dzautner · 2026-03-25T10:53:36Z

Summary

Add multilingual MATH-500 Finnish task (mmath500:fi) with model-graded scoring via inspect-ai
Fix scorer model to use env vars (SCORER_MODEL_BASE_URL, SCORER_MODEL_PATH) instead of hardcoded vLLM init at module import time
Translate mmath500 prompt template to Finnish

Test plan

Ran mmath500:fi on TW cluster across multiple checkpoints
Confirmed scorer model (Qwen3.5-9B) loads correctly via env vars

Uses LumiOpen/MATH-500_mt dataset with Qwen3.5-9B (reasoning disabled) as scorer.

Read SCORER_MODEL_BASE_URL/SCORER_MODEL_PATH from env to connect to an existing scorer server started by the eval harness. Falls back to using the eval model (like original math_500) when no scorer server is set up.

Finnish and Danish prompts reviewed by native speakers (Kai, Maria).

MariaBarrett335 · 2026-03-25T12:27:40Z

Kai said the disabled reasoning from the scorer model, ca we set that as the default?
Other than that, it looks good to me

Pass enable_thinking=False via extra_body to the scorer model so it doesn't waste tokens on chain-of-thought when grading answers.

MariaBarrett335 · 2026-03-26T11:24:24Z

looks good to me

MariaBarrett335 · 2026-03-26T11:26:39Z

sorry, accidentally git the close with comment

Daniel Zautner added 3 commits March 25, 2026 12:53

Add multilingual MATH-500 Finnish task (mmath500:fi)

802b9c5

Uses LumiOpen/MATH-500_mt dataset with Qwen3.5-9B (reasoning disabled) as scorer.

Fix scorer model to use env vars instead of hardcoded vLLM init

3b80bb1

Read SCORER_MODEL_BASE_URL/SCORER_MODEL_PATH from env to connect to an existing scorer server started by the eval harness. Falls back to using the eval model (like original math_500) when no scorer server is set up.

Translate prompt templates to target languages for maime and mmath500

5385ba1

Finnish and Danish prompts reviewed by native speakers (Kai, Maria).

Disable reasoning on scorer model by default

63e69a6

Pass enable_thinking=False via extra_body to the scorer model so it doesn't waste tokens on chain-of-thought when grading answers.

MariaBarrett335 closed this Mar 26, 2026

MariaBarrett335 reopened this Mar 26, 2026

dzautner merged commit 352d4ce into main Mar 26, 2026
7 of 9 checks passed

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Add multilingual MATH-500 (mmath500) task#5

Add multilingual MATH-500 (mmath500) task#5
dzautner merged 4 commits into
mainfrom
daniel/translate-prompts

dzautner commented Mar 25, 2026

Uh oh!

MariaBarrett335 commented Mar 25, 2026

Uh oh!

MariaBarrett335 commented Mar 26, 2026

Uh oh!

MariaBarrett335 commented Mar 26, 2026

Uh oh!

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

2 participants

Uh oh!

Conversation

dzautner commented Mar 25, 2026

Summary

Test plan

Uh oh!

MariaBarrett335 commented Mar 25, 2026

Uh oh!

MariaBarrett335 commented Mar 26, 2026

Uh oh!

MariaBarrett335 commented Mar 26, 2026

Uh oh!

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

2 participants